TF-IDF এবং Bag of Words মডেল

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Text Classification এবং Natural Language Processing (NLP)

217

TF-IDF (Term Frequency-Inverse Document Frequency) এবং Bag of Words (BoW) হলো দুটি জনপ্রিয় টেক্সট প্রক্রিয়াকরণ পদ্ধতি, যা Natural Language Processing (NLP) এবং Text Mining-এ ব্যবহৃত হয়। এগুলি টেক্সট ডেটাকে সংখ্যার আকারে রূপান্তর করতে ব্যবহৃত হয়, যাতে মেশিন লার্নিং অ্যালগরিদমগুলি সেই ডেটা ব্যবহার করতে পারে।

1. Bag of Words (BoW) মডেল

Bag of Words একটি সহজ এবং বেসিক টেক্সট প্রক্রিয়াকরণ পদ্ধতি যা টেক্সট ডেটাকে একটি শব্দের ভেক্টর হিসেবে রূপান্তরিত করে। এই মডেলটি একটি ডকুমেন্টের মধ্যে উপস্থিত শব্দগুলির উপস্থিতি এবং তাদের গননা (frequency) ব্যবহার করে একটি ভেক্টর তৈরি করে।

BoW মডেলের বৈশিষ্ট্য:

শব্দের অর্ডার গুরুত্বপূর্ণ নয়: শব্দের অর্ডার বা সিকোয়েন্স এখানে গোনা হয় না। শুধু শব্দের উপস্থিতি বা তাদের সংখ্যা গোনা হয়।
শব্দের উপস্থিতি: প্রত্যেকটি শব্দকে একটি ফিচার হিসেবে গণ্য করা হয় এবং এই শব্দগুলির উপস্থিতি ও সংখ্যা ভেক্টর ফিচার হিসেবে রূপান্তরিত করা হয়।

ফর্মুলা:

ধরা যাক, আমাদের দুটি ডকুমেন্ট:

"I love programming"
"Programming is fun"

এখন, সমস্ত ডকুমেন্টের জন্য একটি শব্দভাণ্ডার তৈরি করা হবে:

শব্দভাণ্ডার: ["I", "love", "programming", "is", "fun"]

এখন প্রতিটি ডকুমেন্টের জন্য একটি ভেক্টর তৈরি করা হবে, যেখানে প্রতিটি শব্দের উপস্থিতি গোনা হবে:

ডকুমেন্ট 1: [1, 1, 1, 0, 0] (I, love, programming, is, fun)
ডকুমেন্ট 2: [0, 0, 1, 1, 1] (I, love, programming, is, fun)

ব্যবহার:

BoW মডেল সাধারণত টেক্সট ক্লাসিফিকেশন এবং টেক্সট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।
এটি সাধারণত টেক্সট ক্লাসিফিকেশন সমস্যা (যেমন স্প্যাম ইমেইল শনাক্তকরণ) এবং অন্যান্য NLP কাজ (যেমন শব্দ বিশ্লেষণ, সেন্টিমেন্ট অ্যানালাইসিস) তে ব্যবহৃত হয়।

সীমাবদ্ধতা:

শব্দের অর্ডার গুরুত্বহীন, তাই ভাষার প্রাকৃতিক গঠন (syntax) বা অর্থ (semantic) মডেলটি বিবেচনায় নেয় না।
এটি বিশাল ভেক্টর তৈরি করতে পারে, বিশেষ করে যদি ডেটাসেটে অনেক বড় শব্দভাণ্ডার থাকে।

2. TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF হলো একটি উন্নত মেট্রিক যা Term Frequency (TF) এবং Inverse Document Frequency (IDF) এর সংমিশ্রণ। এটি শব্দের গুরুত্ব পরিমাপ করে, যাতে সাধারণ শব্দগুলির তুলনায় গুরুত্বপূর্ণ শব্দগুলির উপর বেশি গুরুত্ব দেওয়া হয়।

TF-IDF এর দুটি মূল অংশ:

Term Frequency (TF): এটি একটি নির্দিষ্ট শব্দের ডকুমেন্টে উপস্থিতির গননা (frequency) হিসাব করে। সাধারণত, শব্দের প্রাসঙ্গিকতা যতো বেশি, তার TF ততো বেশি হবে।
ফর্মুলা:
$\text{TF} = \frac{\text{শব্দের উপস্থিতি গননা}}{\text{ডকুমেন্টের মোট শব্দ সংখ্যা}}$
Inverse Document Frequency (IDF): এটি একটি শব্দের গুরুত্ব পরিমাপ করে ডকুমেন্টের মধ্যে সেই শব্দের বিরলতা পরিমাপ করে। একটি শব্দ যদি ডকুমেন্টের মধ্যে বেশিরভাগ সময় উপস্থিত থাকে, তবে তার IDF কম হবে, কারণ এটি সাধারণ শব্দ।
ফর্মুলা:
$\text{IDF} = \log \left( \frac{\text{মোট ডকুমেন্ট সংখ্যা}}{\text{যে ডকুমেন্টগুলিতে শব্দটি উপস্থিত আছে তাদের সংখ্যা}} \right)$
TF-IDF: TF এবং IDF এর গুনফল হলো TF-IDF, যা শব্দের গুরুত্ব বা প্রাসঙ্গিকতা পরিমাপ করে।
ফর্মুলা:
$\text{TF-IDF} = \text{TF} \times \text{IDF}$

ব্যবহার:

TF-IDF বেশি ব্যবহৃত হয় টেক্সট মাইনিং এবং ডকুমেন্ট ক্লাসিফিকেশন এ, যেখানে শুধুমাত্র গুরুত্বপূর্ণ শব্দগুলিকে গুরুত্ব দেয়া হয়।
এটি অনলাইন সার্চ ইঞ্জিন এবং রেকমেন্ডেশন সিস্টেম গুলিতে ব্যবহৃত হয়, যাতে বিভিন্ন শব্দের মধ্যে প্রাসঙ্গিকতা নির্ধারণ করা যায়।

উদাহরণ:

ধরা যাক, দুটি ডকুমেন্ট:

"I love programming"
"Programming is fun"

এখন, "programming" শব্দের TF-IDF বের করার জন্য:

TF(programming) = 1 (কারণ এটি প্রতি ডকুমেন্টে একবারই এসেছে)
IDF(programming) = $\log \left( \frac{2}{2} \right) = 0$ (যেহেতু এটি দুইটি ডকুমেন্টেই উপস্থিত)

তাহলে, TF-IDF(programming) = 1 × 0 = 0।

BoW এবং TF-IDF এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Bag of Words (BoW)	TF-IDF
শব্দের গুরুত্ব	সব শব্দকে সমান গুরুত্ব দেয়।	সাধারণ শব্দগুলির তুলনায় বিরল বা গুরুত্বপূর্ণ শব্দকে বেশি গুরুত্ব দেয়।
কম্পিউটেশনাল খরচ	সাধারণ এবং কম্পিউটেশনে সহজ।	একটু বেশি কম্পিউটেশনাল খরচ হতে পারে কারণ TF এবং IDF হিসাব করতে হয়।
পাঠ্য এর বৈশিষ্ট্য	শুধুমাত্র শব্দের উপস্থিতি গোনে, অর্ডার বা সংজ্ঞা বিবেচনায় নেয় না।	শব্দের গুরুত্বকে যাচাই করে, যা টেক্সটের মূল উপাদান বা অর্থ বোঝার জন্য সহায়ক।

সারাংশ

Bag of Words (BoW) একটি সহজ পদ্ধতি যা ডকুমেন্টের শব্দগুলির উপস্থিতি এবং গননা নির্ধারণ করে, তবে শব্দের অর্ডার বা অর্থের মধ্যে কোনো পার্থক্য ধরা হয় না।
TF-IDF একটি উন্নত পদ্ধতি যা শব্দের গুরুত্বকে পরিমাপ করে, যেটি টেক্সটের প্রাসঙ্গিকতা বা মুল বিষয়গুলো চিহ্নিত করতে সাহায্য করে। TF-IDF সাধারণত BoW এর চেয়ে বেশি কার্যকর যখন ডেটাতে সাধারণ বা কম গুরুত্বপূর্ণ শব্দ থাকতে পারে।

TF-IDF মডেল সাধারণত টেক্সট ক্লাসিফিকেশন, ইনফর্মেশন রিট্রিভাল, এবং ডকুমেন্ট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।

Content added By

SATT Academy

Text Preprocessing Techniques (Tokenization, Stopwords Removal) Sentiment Analysis এবং Text Classification Scikit-Learn এর CountVectorizer এবং TfidfVectorizer

TF-IDF এবং Bag of Words মডেল

1. Bag of Words (BoW) মডেল

BoW মডেলের বৈশিষ্ট্য:

ফর্মুলা:

ব্যবহার:

সীমাবদ্ধতা:

2. TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF এর দুটি মূল অংশ:

ব্যবহার:

উদাহরণ:

BoW এবং TF-IDF এর মধ্যে পার্থক্য

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

TF-IDF এবং Bag of Words মডেল

1. Bag of Words (BoW) মডেল

BoW মডেলের বৈশিষ্ট্য:

ফর্মুলা:

ব্যবহার:

সীমাবদ্ধতা:

2. TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF এর দুটি মূল অংশ:

ব্যবহার:

উদাহরণ:

BoW এবং TF-IDF এর মধ্যে পার্থক্য

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!